查看原文
其他

定量研究方法真的比定性研究复杂难懂吗?

研如玉 神策研究院 2022-06-25


你是否需要有关产品用户体验的数字数据, 但却不确定应该如何做?


许多从事用户体验及研究的专业人士倾向于定性方法论, 而这也这被广泛认为比定量 (量化) 研究更容易。但不得不承认,定性研究可能回避了较大的样本规模和量化相关的统计数据问题。


而量化方法却是经验丰富的用户体验研究员的工具包中应当包含的重要组成部分。量化方法允许你:


  • 用数字为产品的可用性打上一个标签

    数字有时比质量测试的结果更有说服力 (特别是当你试图说服像 CEO 这样的高管时)

  • 比较不同的设计 (例如, 产品的新版本与旧版本, 或你的产品与竞争对手的产品), 并确定你所观察的差异是否具有统计学意义, 而不是随机偶然。

  • 改进用户体验权衡决策。例如, 如果建议的设计改进预计会花费很大的成本来实现, 它值得做吗?如果你估计了更改将在一定程度上提高可用性,那么量化方法可以帮助你决定是否值得重新设计。

  • 将用户体验改进与组织目标和关键绩效指标联系起来 (从而显示你的投资回报并证明用户体验研究团队的价值)。


定量研究,首要确定的是到底需要哪种量化研究方法。在此,我们介绍一些目前最流行的量化研究类型:

定量可用性测试 (基准测试)

网络分析 (或 App Analytics)

A/B 测试或多变量测试

卡片分类

树测试

调查和问卷调查

聚类定型数据

可取性研究

眼动测试

每种方法都产生有价值的数量数据, 但这些技术在所收集的数据类型以及所需的资源和工作量方面差别很大。

本文列出了这些方法的最常见用例, 并估计了每个实例的成本和难度。此外, 应该知道, 这些方法中都需要不同的最小样本量来确定统计意义。


定量可用性测试(基准测试)

  • 用途:

       1. 随时跟踪可用性

       2. 与竞争对手比较

  • 费用:中等

  • 收集难度:中等

  • 分析难度:中等

  • 方法类型:行为

  • 使用环境:基于任务

虽然不经常使用,但定量可用性测试(有时称为可用性基准测试)很像定性可用性测试——用户被要求使用产品执行实际任务。


两者之间的主要区别在于,可用性测试优先考虑观察,例如识别可用性问题。相比之下,量化可用性测试侧重于收集任务或成功时间等指标


一旦你收集了具有相对较大样本量(大约 35 个参与者或更多)的指标,你就可以使用它们跟踪产品的可用性随时间推移的进度,或者将其与竞争对手产品的可用性进行比较。


你选择的可用性测试类型(面对面,远程主持或远程未经调度)将影响成本,由于定量和定性可用性研究的目标不同,测试的结构和使用的任务也需要不同。


网络分析(或 App Analytics)

  • 用途:

       1. 检测或优先排序问题

       2. 监控性能

  • 成本:低

  • 收集难度:低

  • 分析难度:高

  • 方法类型:行为

  • 使用环境:live

分析数据描述了人们对你的实时产品做了什么:他们去哪里、他们点击了什么、他们使用了什么功能、他们来自哪里,以及他们决定离开网站或应用程序的页面。 

此信息可以支持各种用户体验活动。特别是它可以帮助你监控产品中各种内容:UI 或功能的性能,并确定哪些是真的不起作用。


A / B 测试或多变量测试

  • 用途:比较两个设计选项

  • 成本:低

  • 收集困难:低

  • 分析困难:低

  • 方法类型:行为 

  • 使用情况:live

虽然你可以使用分析指标来监控产品的性能,但你也可以创建实验来检测不同的 UI 设计如何通过 A / B 测试或多变量测试来更改这些指标。


在 A / B 测试中,团队创建同一 UI 的两个不同的实时版本,然后将每个版本显示给不同的用户,以查看哪个版本的性能最佳。

例如,你可以创建相同号召性用语按钮标签的两个版本:“获取定价”与“了解更多信息”,然后,你可以跟踪按钮在两个版本中收到的点击次数。


多变量测试类似,但涉及一次测试多个设计元素(例如,测试可能涉及不同的按钮标签,排版和页面上的位置。)


这两个基于分析的实验都非常适合决定同一设计的不同变体,并且可以结束团队关于哪个版本最佳的争议,但这种方法的一个主要缺点是它经常被滥用。


卡片分类

  • 用途:确定信息架构标签和结构

  • 成本:低

  • 收集难度:低

  • 分析难度:中等

  • 方法类型:态度(人们怎么说)

  • 使用环境:不使用产品


在卡片分类研究中,参与者被给予内容项目(有时字面上写在索引卡片上),并要求以对他们有意义的方式对这些项目进行分组和标记。 


该测试既可以亲自进行,也可以使用实体卡进行,也可以使用卡片分类平台进行远程测试。

这种方法为你提供了进入用户信息空间的心理模型的机会。他们使用什么术语?他们如何在逻辑上将这些概念组合在一起?


对创建类似分组的参与者的百分比进行定量分析可以帮助确定大多数用户可以理解哪种分类方法。


树测试

  • 用途:评估信息架构层次结构

  • 成本:低

  • 收集难度:低

  • 分析难度:中等

  • 方法类型:行为

  • 使用环境:基于任务,不使用产品


在树测试中,参与者尝试仅使用你站点的类别结构来完成任务。它本质上是一种评估你的信息架构的方法,通过将其与 UI 的所有其他方面隔离开来。


假设你的产品是宠物用品网站,这是你的顶级层次结构,你可能会要求参与者完成一项任务——找到狗项圈。 

树测试结果的定量分析将显示人们是否能够在信息层次结构中找到该项目的正确路径,以及有多少参与者选择了错误的类别。

此方法可用于识别 IA 结构,标签和展示位置是否符合人们的期望。


调查和问卷调查

  • 用途:

       1. 收集有关您的用户

       2. 他们的态度和行为的信息

  • 成本:低

  • 收集难度:低

  • 分析难度:低

  • 方法类型:态度

  • 使用环境:任何


调查是一种灵活的用户研究工具。你可以在各种环境中管理它们:在实时网站、电子邮件或可用性测试之后进行短暂拦截调查等。

它们可以产生定量和定性数据的组合——评级,多项选择题中每个选项的答案比例,以及开放式答案。你甚至可以将对调查的定性响应转换为数值数据。

你可以创建自己的自定义调查,也可以使用许多已建立的问卷中的一个(例如,系统可用性量表或净推荐值得分)。


调查问卷的一个优点是,你通常可以将结果与行业或竞争对手的分数进行比较,以了解你的工作情况。 


即使你创建自己的自定义调查问卷,也仍然可以跟踪你的平均分数以监控产品改进。


聚类定性数据

  • 用途:识别定性数据中的重要主题

  • 成本:低

  • 收集难度:中等

  • 分析难度:中等

  • 方法类型:态度(人们怎么说)

  • 使用环境:任何


这种技术不是数据收集方法,而是更多的定性数据分析方法。


它涉及根据共同主题对来自定性研究(例如日记研究、调查、焦点小组或访谈)的观察进行分组。如果你有大量观察结果,则可以计算提及特定主题时的实例数。


例如,假设你进行日记研究,要求参与者每次在日常生活中使用你的产品并进行一周报告,目的是了解他们在何种环境中使用你的产品。


此方法可以识别特定主题或情况的普遍性或频率,例如,用户投诉的频率或 UI 问题。这种方法是从大量定性信息中挖掘数值数据的好方法,但它可能非常耗时。


可取性研究

  • 用途:

识别与您的产品或品牌相关的属性

  • 成本:低

  • 收集难度:低

  • 分析难度:低

  • 方法类型:态度

  • 使用环境:基于任务


定量可取性研究试图量化和衡量产品的某些质量,例如美学吸引力、品牌强度、语调。 


这些研究可以根据你的研究问题进行定制,但通常包括首先将参与者暴露给你的产品(通过向他们展示静止图像或要求他们使用实时产品或原型)。 


然后,你将要求他们通过从描述性词汇列表中选择选项来描述设计。随着样本量越来越多,一些趋势则开始出现。 例如,你可能有 84% 的受访者将设计描述为“新鲜”。


眼动测试

  • 使用:

确定哪些 UI 元素分散注意力,可查找或可发现

  • 成本:高

  • 收集难度:高

  • 分析难度:高

  • 方法类型:行为

  • 使用环境:基于任务

眼球跟踪研究需要特殊的设备来跟踪用户在界面上移动时的眼睛。 当许多参与者(30 个或更多)在同一界面上执行相同的任务时,有意义的趋势开始出现,你可以通过一些可靠性告诉页面的哪些元素会吸引人们的注意力。


眼动测试可以帮助你确定需要强调或强调哪些界面和内容元素,以使用户能够实现其目标。


运行眼球跟踪研究的一个主要障碍是高度专业化、极其昂贵且有些不稳定的设备以及需要大量的培训才能使用。


在尝试确定使用哪种定量方法引导你的研究问题时,你需要了解什么?

例如:

  • 我们的产品可用性如何随时间而变化?

  • 与竞争对手相比,我们的表现如何?

  • 我们哪个问题影响最大?我们应该如何优先排序?

对于这些类型的问题你可能希望使用定量可用性测试、网站分析或调查。


当你想要回答更具体的问题时,或许其他方法更佳。 例如:

  • 我们应该如何修复我们的全球导航类别?

  • 我们的大多数用户对我们的视觉设计有何看法?

  • 我们应该在仪表板中使用这两种设计方案中的哪一种?

对于这些研究问题,你可能希望使用 A / B 测试、卡片分类、树木测试、编码定性评论,可取性研究或眼球跟踪。


但是,这些建议中有一些灰色地带。 例如,出于安全或技术原因,A / B 测试可能不是贵公司的选项。 


如果是这种情况,你可以进行面对面的量化可用性研究来比较两个原型。但是,这不是定量可用性测试的典型用法,所以没有在这里讨论它。


在研究问题之后,选择方法的第二个最有影响力的因素是成本。

这些方法的成本会有很大差异,具体取决于你实施研究的方式。你使用的工具、你拥有的参与者数量以及研究人员花费的时间都将影响最终成本。


低预算团队将依赖数字方法——远程可用性测试、在线卡片分类平台、如 OptimalSort、A / B 测试以及 Web 或应用程序分析。

根据经验,现场方法(例如面对面的可用性测试,面对面的卡片种类)往往更昂贵,因为它们需要更多消耗研究人员更多的时间。


此外,他们可能需要旅行和设备租赁。眼动测试是这里列出的最昂贵的方法,应该只有具有大预算和研究问题的团队才能使用它。


一旦选择了方法,就要了解它,并确保你获得有用的成果。


警告:不能只收集指标并开始做出决策而不进行任何统计分析。仅收集来自 5 个用户的评级规模响应,取平均值并继续前进是不够的。


对于此处讨论的每种方法,都建议最小样本量以获得可靠的数据并确定统计显着性。如果你不这样做,你无法保证你的发现不只是侥幸。


无论你选择哪种方法,一定要考虑研究相关统计概念所需的时间。我保证,定量研究不像它看起来那么难,对于你的定量数据来说非常值得。


本文编译:研如玉

本文作者:Kate Moran

文章来源:Nielsen Norman Group


用户行为洞察研究院

User Behavior Insights Research

用户行为洞察研究院,旨在提供更具行业深度的洞察、领先的行业最佳实践、创新的技术解决方案等,为广大企业客户、大数据产业链从业者的发展提供指导。

未来,研究院将会进一步联合行业优秀创新典范、各类型合作伙伴、学术界与行业专家一起,汇聚大数据与用户行为分析领域的最佳创新实践和行业深度洞察。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存